Java网络爬虫 您所在的位置:网站首页 爬取京东数据 合法 Java网络爬虫

Java网络爬虫

2024-07-09 19:17| 来源: 网络整理| 查看: 265

文章目录 * 介绍 jsoup使用 * 1.解析url,获取前端代码 2.解决京东安全界面跳转3.获取每一组的数据4.获取商品数据的具体信息4.最终代码 介绍

网络爬虫,就是在 浏览器上,代替人类爬取数据 ,Java网络爬虫就是通过Java编写爬虫代码,代替人类从网络上爬取信息数据。程序员通过设定既定的规则,让程序代替我们从网络上获取海量我们需要的数据,比如图片,企业信息等。 爬虫的关键是对于网页信息的解析。

什么是jsoup:

jsoup 是一个用于处理现实世界HTML的Java库。它提供了一个非常方便的API,用于获取URL以及提取和操作数据,使用最好的HTML5 DOM方法和CSS选择器

jsoup使用 连接url,爬取网页代码(html代码)解析网页代码,获取需要部分的数据

我们以解析京东网页,红框数据为例

在这里插入图片描述

1.解析url,获取前端代码 package com.xhf; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.io.IOException; import java.net.URL; public class JsoupTest { static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8"; public static void main(String[] args) throws IOException { // 解析网页, document就代表网页界面 Document document = Jsoup.parse(new URL(url), 5000); // 打印获取前端代码 System.out.println(document); } } 2.解决京东安全界面跳转

直接通过url访问,经常遇到弹出京东安全的界面

京东安全

这算是对于爬取数据的一种反制措施。直接通过url请求, 服务器会认为客户端没有登录,因此会跳出京东安全的登陆界面,让他们登录 。以前可以通过添加header解决,现在得添加cookie了。获取cookie的方式如下

在这里插入图片描述 在这里插入图片描述

空白处右击鼠标选择检查右边栏中选择网络。如果没有,点击加号(更多工具),选择网络找到Search大头的请求,如果没有,刷新重发请求选中请求,查看标头选择cookies,找到以thor为key的cookie

以下,就是修正后的代码

package com.xhf; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; import java.util.HashMap; import java.util.Map; public class JsoupTest { static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8"; public static void main(String[] args) throws IOException { // 设置cookie Map cookies = new HashMap(); cookies.put("thor", "03F9B0325C5DCD2FCCDB435C227FD474D0B53C9143EB5DDA60599BDB9AE7A415B7CFEB4418F01DDEB8B8B9DD502D366A4E0BA2D84A0FE6CB6658061484CA95D230C7B76A36E31F4B329D2EFAC7DCD1E526F3C416CC50617276FED57FAF618892895784CB6446F6B8468A807290C12C3BA1C99DD0C0939C48C4E69681CA900EA9"); // 解析网页, document就代表网页界面 Document document = Jsoup.connect(url).cookies(cookies).get(); System.out.println(document); } } 餐巾纸 - 商品搜索 - 京东

jsoup中的document可以当作js中的document使用,解析网站内容就是在js中操作document,获取信息

3.获取每一组的数据

在这里插入图片描述

我们发现,所有的商品数据都是通过ul标签进行渲染

在这里插入图片描述

每单个数据,则是用li标签渲染

所以,如果我们要获取每个商品数据,我们可以先 通过class,获取ul元素 ,然后 选择出ul元素内包含的所有li元素

// 通过class获取ul标签 Elements ul = document.getElementsByClass("gl-warp clearfix"); // 获取ul标签下的所有li标签 Elements liList = ul.select("li"); for (Element element : liList) { System.out.println("------------------"); System.out.println(element); System.out.println(); } ------------------

¥78.90 维达(Vinda)抽纸 超韧150抽*24包S码 湿水不易破 卫生纸 纸巾 餐巾纸 整箱 【纸选维达,实力出发】爆品低至6.6折,抢新品低价试用 【神券疯狂领】满199减40神券 【会员福利送】下单满1元赢手机好礼,直达开抢! 维达京东自营官方旗舰店 自营 2件9折 对比 关注 加入购物车

------------------

¥54.90 洁柔抽纸 活力阳光橙3层120抽面巾纸*24包 母婴可用 全家适用 【洁柔新品来袭】洁柔爱马仕设计师联名款重磅上线!爆款好物空前钜惠,爆品低至6.6折!【洁柔大会员】抢神券,会员臻享八大特权go 洁柔京东自营官方旗舰店 自营 对比 关注 加入购物车 …其余数据不做展示

4.获取商品数据的具体信息

通过遍历上述代码中出现的liList,可以获取到每一个li元素。每个元素都代表了商品的一组信息。具体如下所示。

在这里插入图片描述

如果我们要获取更为具体的信息,比如价格,图片,介绍等信息。我们就需要对li标签所封装的对象进行数据的截取。

在这里插入图片描述

我们可以用getElementsByTag("img")来获取带有img标签的对象,然后获取其data-lazy-img属性的数据

String pict = element.getElementsByTag("img").first().attr("data-lazy-img"); 价格在这里插入图片描述

我们可以通过getElementsByClass("p-price")的方式获取对象,然后获取其中内容

String price = element.getElementsByClass("p-price").first().text(); shop名称,类似价格获取方式 4.最终代码 package com.xhf; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; import java.util.HashMap; import java.util.Map; /** * 解析京东界面, 爬取商品数据 */ public class JsoupTest { static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8"; public static void main(String[] args) throws IOException { // 设置cookie Map cookies = new HashMap(); cookies.put("thor", "03F9B0325C5DCD2FCCDB435C227FD474D0B53C9143EB5DDA60599BDB9AE7A415B7CFEB4418F01DDEB8B8B9DD502D366A4E0BA2D84A0FE6CB6658061484CA95D230C7B76A36E31F4B329D2EFAC7DCD1E526F3C416CC50617276FED57FAF618892895784CB6446F6B8468A807290C12C3BA1C99DD0C0939C48C4E69681CA900EA9"); // 解析网页, document就代表网页界面 Document document = Jsoup.connect(url).cookies(cookies).get(); // 通过class获取ul标签 Elements ul = document.getElementsByClass("gl-warp clearfix"); // 获取ul标签下的所有li标签 Elements liList = ul.select("li"); for (Element element : liList) { System.out.println("------------------"); String pict = element.getElementsByTag("img").first().attr("data-lazy-img"); String price = element.getElementsByClass("p-price").first().text(); String shopName = element.getElementsByClass("p-shop").first().text(); System.out.println(pict); System.out.println(price); System.out.println(shopName); } } }

接下来我将给各位同学划分一张学习计划表!

学习计划

那么问题又来了,作为萌新小白,我应该先学什么,再学什么? 既然你都问的这么直白了,我就告诉你,零基础应该从什么开始学起:

阶段一:初级网络安全工程师

接下来我将给大家安排一个为期1个月的网络安全初级计划,当你学完后,你基本可以从事一份网络安全相关的工作,比如渗透测试、Web渗透、安全服务、安全分析等岗位;其中,如果你等保模块学的好,还可以从事等保工程师。

综合薪资区间6k~15k

1、网络安全理论知识(2天) ①了解行业相关背景,前景,确定发展方向。 ②学习网络安全相关法律法规。 ③网络安全运营的概念。 ④等保简介、等保规定、流程和规范。(非常重要)

2、渗透测试基础(1周) ①渗透测试的流程、分类、标准 ②信息收集技术:主动/被动信息搜集、Nmap工具、Google Hacking ③漏洞扫描、漏洞利用、原理,利用方法、工具(MSF)、绕过IDS和反病毒侦察 ④主机攻防演练:MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础(1周) ①Windows系统常见功能和命令 ②Kali Linux系统常见功能和命令 ③操作系统安全(系统入侵排查/系统加固基础)

4、计算机网络基础(1周) ①计算机网络基础、协议和架构 ②网络通信原理、OSI模型、数据转发流程 ③常见协议解析(HTTP、TCP/IP、ARP等) ④网络攻击技术与网络安全防御技术 ⑤Web漏洞原理与防御:主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作(2天) ①数据库基础 ②SQL语言基础 ③数据库安全加固

6、Web渗透(1周) ①HTML、CSS和JavaScript简介 ②OWASP Top10 ③Web漏洞扫描工具 ④Web渗透工具:Nmap、BurpSuite、SQLMap、其他(菜刀、漏扫等) 那么,到此为止,已经耗时1个月左右。你已经成功成为了一名“脚本小子”。那么你还想接着往下探索吗?

阶段二:中级or高级网络安全工程师(看自己能力)

综合薪资区间15k~30k

7、脚本编程学习(4周) 在网络安全领域。是否具备编程能力是“脚本小子”和真正网络安全工程师的本质区别。在实际的渗透测试过程中,面对复杂多变的网络环境,当常用工具不能满足实际需求的时候,往往需要对现有工具进行扩展,或者编写符合我们要求的工具、自动化脚本,这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中,想要高效地使用自制的脚本工具来实现各种目的,更是需要拥有编程能力。

零基础入门的同学,我建议选择脚本语言Python/PHP/Go/Java中的一种,对常用库进行编程学习 搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP,IDE强烈推荐Sublime;

Python编程学习,学习内容包含:语法、正则、文件、 网络、多线程等常用库,推荐《Python核心编程》,没必要看完

用Python编写漏洞的exp,然后写一个简单的网络爬虫

PHP基本语法学习并书写一个简单的博客系统

熟悉MVC架构,并试着学习一个PHP框架或者Python框架 (可选)

了解Bootstrap的布局或者CSS。

阶段三:顶级网络安全工程师

如果你对网络安全入门感兴趣,那么你需要的话可以点击这里👉网络安全重磅福利:入门&进阶全套282G学习资源包免费分享!

学习资料分享

当然,只给予计划不给予学习资料的行为无异于耍流氓,这里给大家整理了一份【282G】的网络安全工程师从入门到精通的学习资料包,可点击下方二维码链接领取哦。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有